[レポート] ANT206: Amazonの大規模分析におけるAWSサービス活用法 #reinvent
はじめに
本記事はAWS re:Invent 2018のセッション「ANT206- Under the Hood: How Amazon Uses AWS Services for Analytics at a Massive Scale」のレポートです。
As Amazon's consumer business continues to grow, so does the volume of data and the number and complexity of the analytics done in support of the business. In this session, we talk about how Amazon.com uses AWS technologies to build a scalable environment for data and analytics. We look at how Amazon is evolving the world of data warehousing with a combination of a data lake and parallel, scalable compute engines, such as Amazon EMR and Amazon Redshift.
スピーカーは以下のお二人。
- Naveen Yajaman - Principal Technical Program Manager
- Craig Woods - Senior Solutions Architect
レポート
Amazonにおける分析
様々なビジネスユニットのデータをDWHに蓄積
多様なユーザーとユースケース
大量のデータセット
900Kのデイリージョブ、80Kのアクティブユーザー
レガシーDWH
Oracleを利用
結合されたコンピュータとストレージ
大量のハードウェア
高価なライセンス
ピーク時に対応可能とするための高価なハードウェア
メンテナンスにかかる人的コストが膨大
プロジェクトのゴール
Amazonのビジネスにスケール可能
オープンなアーキテクチャ
様々なアナリティクスの技術に対応
AWSのテクノロジーを活用し、そこで得た知見をAmazonの顧客に提供
AmazonのレガシーDWH
Oracle、DynamoDB、Auroraがデータソース
ETLワークフローを介してOracleとRedshiftにデータを蓄積
分析するユーザーやソフトウェア、アプリケーションにデータを提供
新DWHのアーキテクチャ
データソースからのデータをメタデータと一緒にS3に蓄積
S3に蓄積されたメタデータとデータはRedshiftとGlueに同期
同期されたデータをETLワークフローやEMRを使って分析
レガシーDWHからの移行
データをロードして新データレイクにロード
レガシーDWHからData Moverを使って新データレイクに同期
SCTによってOracleからRedsfhitに変換
2週間でレガシーDWHを廃止
Redshift Spectrum
Amazon RedshiftからExternal TablesでS3にデータを格納
long-tailをサポート、巨大なユーザーデータに対応可能
ミニマムな投資でインテグレーションを可能に
ユーザーの経験
hootシステムというインターフェースを用意
スキーマやデータを簡易に検索し表示
マイグレーションのコンテキスト
ビジネスを止めないこと
分析をリデザインすること
データの中央集権化を止めること
コストエフェクティブであること
マイグレーションプログラムのコンポーネント
マネジメント
ユーザーのリクエストをしっかりと聞く
ツール
SCT、テーブルデータの移行ツール、トラッキング
アーキテクチャ
ガイダンスと教育
マイグレーションのキー
リーダーシップからのサポート
意思決定者からしっかり組織に伝える
セルフサービスツールの拡充
ユーザーが自分で分析出来るように
レガシーDWHと新DWHの一時的な共存
エンジニアとユーザーの再教育
コミュニケーション
大きな変更をする場合はコミュニケーションがとても重要
常にオーバーなくらいコミュニケーションすること
結論
AWSは大規模なデータ分析に活用出来る
S3はスケーラブル、セキュア、ロバスト、コストエフェクティブ
オープンシステムアーキテクチャを選択する
12/1にOracleのレガシーDWHを完全にシャットダウンする
ペタバイトのDWHをAWSにマイグレーションすることは可能
さいごに
大容量のDWHをAWSに移行した実績として、とても大きなチャレンジだったと思います。この事例が出ることでAWSの活用が更に広がるのではないでしょうか。